iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 13
0
AI & Data

AI x 日常 x 30天系列 第 13

Epoch 13 - 行人重識別論文筆記 x ABD-Net

  • 分享至 

  • xImage
  •  

今天再來介紹一篇person re-id的論文。

ABD-Net: Attentive but Diverse Person Re-Identification

很多實驗證明attention是有效的,但是attention特徵通常不夠diverse(多元化),
意思就是attention機制傾向於將特徵集中在更緊湊的子空間,
但這樣對於算特徵距離,是不利的,因為會分布得太緊密。

因此,作者認為,更理想的特徵embedding應該是attentive和diverse兼具的:
attentive 目的在糾正錯位、消除背景干擾,並注重身體外觀的具判別力的局部區域。
diverse 鼓勵特徵之間有較低的相關性,從而更好地匹配,並可能使特徵空間更加全面。

提出一個Attentive但是Diverse的架構,叫做ABD-Net
Attentive:作者整合了兩種的注意機制
CAM有助於實現channel之間的feature level的訊息聚合
PAM則可捕獲身體和部位位置的空間感知。
並且它們被發現是互補的,並且完全有利於Re-ID。

CAM

在CNN中的高層的卷積層比較跟語義相關,並且通常是類別相關的,就是有分組
他們假設在Re-id中,有些high-level channel會share相似的語義,例如前景人,背景..
因此CAM的作用就是去將這些相似語義的channel群組的資訊互相聚合。

先把CxHxW的input feature map, reshape 成 NxC 和 CXN,
然後相乘然後經過softmax得到channel affinity matrix(CxC),
再乘原本的CxN,變回原本一樣大小CxHxW,有點權重的感覺。
最後在把每個element加起來,得到output。

PAM

PAM跟CAM很類似,但是他是希望能聚合空間中的語義相關訊息,
首先將輸入特徵映射A(CxHxW) 分別輸入三個卷積層,
以生成特徵映射B, C, D(CxHxW),
然後計算pixels affinity matrix S,他是NxN,和CAM相反,
其他部份計算和CAM類似,最終也生成輸出相同大小的feature map。

SVDO

那Diverse的部分,
這邊是參考CVPR2017的re-id方法SVD-Net,
SVD-Net的作者認為,全連接層權重的作用可以看做一組向量投影,
當權重直接相關性較高時(可以理解為權值冗餘),特徵差異小,直接導致檢索中距離差異小,無法獲取差異化的特徵。
作者提出用SVD進行降維操作,提高權重的正交性,因為正交就會線性獨立,從而提高檢索性能。

本篇作者提出兩個module,
O.F.:作用在feature space,減少可直接有利於匹配的特徵相關性;希望能多多參考其他特徵,看廣一點。
O.W.:作用在卷積層的weight,鼓勵filter多樣性並提高學習capacity。

Result

和其他方法相比,在DukeMTMC上提升蠻明顯的。


上一篇
Epoch 12 - 行人重識別論文筆記 x SSG
下一篇
Epoch 14 - 行人重識別論文筆記 x PCB
系列文
AI x 日常 x 30天30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言